Введение

В данном отчёте проводится регрессионный анализ связи физической активности с уровнем гликированного гемоглобина (HbA1c).

Загрузка данных

## # A tibble: 6 × 74
##    SEQN DMDEDUC2 DMDHHSIZ DMDHHSZA DMDHHSZB DMDHHSZE DMDMARTL INDFMIN2 RIAGENDR
##   <dbl>    <dbl>    <dbl>    <dbl>    <dbl>    <dbl>    <dbl>    <dbl>    <dbl>
## 1 81603        4        1        0        0        1        2        4        2
## 2 81783        5        3        0        1        0        1       12        1
## 3 80825        3        5        0        2        0        1        7        1
## 4 74081        4        2        0        0        2        1        5        1
## 5 83352        3        6        0        1        1        5       12        1
## 6 79661        3        7        1        2        0        1       12        1
## # ℹ 65 more variables: RIDAGEYR <dbl>, RIDRETH3 <dbl>, DR1TALCO <dbl>,
## #   DR1TCHOL <dbl>, DR1TFIBE <dbl>, DR1TKCAL <dbl>, DR1TMFAT <dbl>,
## #   DR1TPFAT <dbl>, DR1TSFAT <dbl>, DR1TSUGR <dbl>, DR1TTFAT <dbl>,
## #   DRD340 <dbl>, DRD360 <dbl>, DRQSDIET <dbl>, DRQSDT1 <dbl>, DRQSDT10 <dbl>,
## #   DRQSDT2 <dbl>, DRQSDT3 <dbl>, DRQSDT4 <dbl>, DRQSDT7 <dbl>, DRQSDT8 <dbl>,
## #   DRQSDT9 <dbl>, DRQSDT91 <dbl>, BMXBMI <dbl>, BMXHT <dbl>, BMXWT <dbl>,
## #   LBXGH <dbl>, BPQ020 <dbl>, BPQ050A <dbl>, MCQ010 <dbl>, MCQ035 <dbl>, …

Подготовка данных

Определение переменных для физической активности

##  Moderate_Minutes Vigorous_Minutes Activity_Index   Activity_Category 
##  Min.   :   0.0   Min.   :   0.0   Min.   : 0.000   Length:916        
##  1st Qu.:   0.0   1st Qu.:   0.0   1st Qu.: 0.000   Class :character  
##  Median : 120.0   Median :   0.0   Median : 1.600   Mode  :character  
##  Mean   : 370.8   Mean   : 192.6   Mean   : 5.040                     
##  3rd Qu.: 480.0   3rd Qu.: 138.8   3rd Qu.: 5.925                     
##  Max.   :4670.0   Max.   :3960.0   Max.   :56.130

Введенные переменные

  1. Moderate_Minutes
    Отражает общее количество минут умеренной физической активности в неделю, рассчитанное путем умножения минут активности на количество дней и их суммирования. Эта переменная необходима для учета важного компонента общей физической активности.

  2. Vigorous_Minutes
    Представляет общее количество минут интенсивной физической активности в неделю, рассчитанное аналогично умеренной активности. Интенсивная активность имеет большее влияние на здоровье, что делает её важной для анализа.

  3. Activity_Index
    Индекс активности объединяет умеренную и интенсивную активность, учитывая их различное влияние (интенсивная умножается на 2), и нормализует результат по шкале, основанной на рекомендациях ВОЗ (150 минут). Это дает интегральную оценку уровня активности. Таким образом его значения от 1 и более характеризует человека как физически активного.

  4. Activity_Category
    Классифицирует участников как “Physically Active” или “Physically Inactive” на основе выполнения рекомендаций ВОЗ (≥150 минут умеренной или ≥75 минут интенсивной активности в неделю). Категория помогает быстро интерпретировать соответствие участников стандартам активности.

## Rows: 916
## Columns: 32
## $ ID                       <dbl> 81603, 81783, 80825, 74081, 83352, 79661, 776…
## $ Sex                      <fct> Female, Male, Male, Male, Male, Male, Male, F…
## $ Age                      <dbl> 76, 44, 30, 80, 20, 52, 22, 45, 25, 62, 80, 5…
## $ Race                     <fct> Non-Hispanic White, Non-Hispanic Black, Non-H…
## $ Education                <fct> Some college/AA degree, College graduate or a…
## $ Marital_Status           <fct> Widowed, Married, Married, Married, Never mar…
## $ Family_Income            <fct> "$15,000-$19,999", "$100,000+", "$35,000-$44,…
## $ Glycohemoglobin          <dbl> 6.2, 5.6, 5.2, 5.8, 5.2, 5.3, 5.0, 6.4, 4.8, …
## $ Systolic_BP              <dbl> 147, 114, 115, 139, 141, 111, 130, 121, 106, …
## $ Diastolic_BP             <dbl> 72, 61, 70, 85, 76, 66, 86, 79, 54, 70, 46, 7…
## $ BMI                      <dbl> 27.7, 24.7, 26.1, 30.2, 28.1, 23.5, 30.6, 28.…
## $ Smoked_100_Cigarettes    <fct> No, No, Yes, No, No, No, Yes, No, No, No, No,…
## $ Currently_Smokes         <fct> Not at all, Not at all, Every day, Not at all…
## $ Asthma_Ever              <fct> Yes, Yes, No, No, Yes, No, No, Yes, No, No, N…
## $ Asthma_Now               <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ Coronary_Heart_Disease   <fct> No, No, No, No, No, No, No, No, No, No, No, N…
## $ Congestive_Heart_Failure <fct> No, No, No, No, No, No, No, No, No, No, No, N…
## $ Heart_Attack             <fct> No, No, No, No, No, No, No, No, No, No, No, N…
## $ Stroke                   <fct> No, No, No, No, No, No, No, No, No, No, No, N…
## $ Thyroid_Problem_Ever     <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ Thyroid_Problem_Now      <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ COPD                     <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ Cancer_Ever              <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ High_BP_Ever             <fct> Yes, No, No, Yes, No, No, No, No, No, No, No,…
## $ High_BP_Meds_Now         <fct> Yes, No, No, No, No, No, No, No, No, No, No, …
## $ Diabetes_Ever            <fct> Yes, No, No, No, No, No, No, Yes, No, No, No,…
## $ Diabetes_Meds_Now        <fct> Yes, No, No, No, No, No, No, Yes, No, No, No,…
## $ Moderate_Minutes         <dbl> 280, 270, 0, 1200, 2520, 0, 1440, 90, 0, 50, …
## $ Vigorous_Minutes         <dbl> 0, 630, 1800, 0, 0, 0, 855, 0, 0, 0, 0, 0, 0,…
## $ Activity_Index           <dbl> 1.87, 10.20, 24.00, 8.00, 16.80, 0.00, 21.00,…
## $ Activity_Category        <chr> "Active", "Active", "Active", "Active", "Acti…
## $ Comorbidities_Score      <dbl> 9, 0, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 4, …

Оценка физической активности респондентов

Физическая активность респондентов будет оцениваться на основе двух ключевых показателей: умеренной физической активности (Moderate_Minutes) и интенсивной физической активности (Vigorous_Minutes). Эти переменные отражают количество минут, затраченных респондентами на соответствующую активность в неделю. Для получения интегрального показателя активности используется индекс активности (Activity_Index), который рассчитывается по формуле:

\[ \text{Activity\_Index} = \frac{\text{Moderate Minutes} + 2 \times \text{Vigorous Minutes}}{150} \]

Значения от 1 и более будут харектиризовать респондента как физически активного. Это соответствует классификации ВОЗ.

Мы предполагаем, что физическая активность может быть обратно ассоциирована с уровнями гликированного гемоглобина (HbA1c), так как она способствует улучшению чувствительности к инсулину и снижению уровней глюкозы в крови.


2. Ковариаты для модели и их оценка

Для коррекции эффекта физической активности на гликированный гемоглобин будут включены следующие ковариаты:

  • Comorbidities (Сопутствующие заболевания): Будем учитывать интегральную переменную Comorbidities_Score (Суммарное количество сопутствующих заболеваний)
    Эта числовая переменная отражает общее количество хронических заболеваний у респондента, включая следующие состояния:
    • Наличие астмы в настоящий момент (Asthma_Now),
    • Ишемическая болезнь сердца (Coronary_Heart_Disease),
    • Хроническая сердечная недостаточность (Congestive_Heart_Failure),
    • Инфаркт миокарда (Heart_Attack),
    • Инсульт (Stroke),
    • Проблемы с щитовидной железой (в прошлом и в настоящее время: Thyroid_Problem_Ever, Thyroid_Problem_Now),
    • ХОБЛ (хроническая обструктивная болезнь легких) (COPD),
    • Рак (в любом периоде) (Cancer_Ever),
    • Повышенное артериальное давление (в прошлом и в настоящее время: High_BP_Ever, High_BP_Meds_Now),
    • Диабет (в прошлом и в настоящее время: Diabetes_Ever, Diabetes_Meds_Now).
  • Race (Расовая/этническая принадлежность): Категориальная переменная, отражающая различия в предрасположенности к диабету и физических особенностях.
  • Sex (Пол): Категориальная переменная (Male/Female), учитывающая физиологические различия между мужчинами и женщинами.
  • Smoking Курение (Currently_Smokes): Категориальная переменная, так как курение ассоциировано с повышенным уровнем HbA1c.

Эти переменные будут оцениваться по данным из анкеты и клинических измерений. Все ковариаты введены как корректирующие факторы, чтобы минимизировать возможные искажения в оценке ассоциации между физической активностью и уровнем HbA1c.


3. Роль каждого показателя в DAG

Конфаундеры

Эти переменные искажают связь между физической активностью и HbA1c, если их не учитывать при анализе:

  • Экспозиция (Exposure): Физическая активность (Physical activity).
  • Исход (Outcome): Гликированный гемоглобин (HbA1c).

Основные конфаундеры: - Возраст (Age). - Сопутствующие заболевания (Comorbidities). - Уровень образования (Education). - Доход семьи (Family income). - Расовая/этническая принадлежность (Race). - Пол (Sex).

Proxy-конфаундеры: - Индекс массы тела (BMI). - Курение (Smoking).

Коллайдеры:

Переменные, в которых сходятся независимые причинные пути, и корректировка на них может привести к смещению: - Артериальное давление (Blood pressure) между HbA1c и сопутствующими включая сопутствующие заболевания.

Медиаторы:

Переменные, через которые физическая активность оказывает влияние на HbA1c: - Индекс массы тела (BMI) между физической активностью и HbA1c. Физическая активность влияет на снижение массы тела, что, в свою очередь, связано с уровнем HbA1c.

Эксплораторный анализ (EDA)

Саммари

##        ID            Sex           Age                       Race    
##  Min.   :73557   Male  :539   Min.   :20.0   Mexican American  :101  
##  1st Qu.:76159   Female:377   1st Qu.:45.0   Other Hispanic    : 75  
##  Median :78868                Median :56.0   Non-Hispanic White:463  
##  Mean   :78750                Mean   :54.7   Non-Hispanic Black:175  
##  3rd Qu.:81432                3rd Qu.:67.0   Non-Hispanic Asian: 78  
##  Max.   :83724                Max.   :80.0   Other/Multi-Racial: 24  
##                                                                      
##                      Education               Marital_Status
##  Less than 9th grade      : 54   Married            :508   
##  9-11th grade             :119   Widowed            : 82   
##  High school graduate/GED :203   Divorced           :123   
##  Some college/AA degree   :297   Separated          : 28   
##  College graduate or above:243   Never married      :126   
##                                  Living with partner: 49   
##                                                            
##          Family_Income Glycohemoglobin   Systolic_BP     Diastolic_BP   
##  $100,000+      :179   Min.   : 4.200   Min.   : 65.0   Min.   :  0.00  
##  $25,000-$34,999:104   1st Qu.: 5.300   1st Qu.:115.0   1st Qu.: 64.00  
##  $35,000-$44,999:100   Median : 5.600   Median :125.0   Median : 71.00  
##  $15,000-$19,999: 78   Mean   : 5.803   Mean   :126.5   Mean   : 70.15  
##  $45,000-$54,999: 78   3rd Qu.: 5.900   3rd Qu.:137.0   3rd Qu.: 78.00  
##  $20,000-$24,999: 73   Max.   :13.900   Max.   :203.0   Max.   :110.00  
##  (Other)        :304                                                    
##       BMI        Smoked_100_Cigarettes   Currently_Smokes Asthma_Ever
##  Min.   :17.00   Yes:428               Every day :133     Yes:144    
##  1st Qu.:24.80   No :488               Some days : 31     No :772    
##  Median :28.10                         Not at all:752                
##  Mean   :29.38                                                       
##  3rd Qu.:32.73                                                       
##  Max.   :77.50                                                       
##                                                                      
##  Asthma_Now Coronary_Heart_Disease Congestive_Heart_Failure Heart_Attack
##  Yes: 84    Yes: 46                Yes: 34                  Yes: 41     
##  No :832    No :870                No :882                  No :875     
##                                                                         
##                                                                         
##                                                                         
##                                                                         
##                                                                         
##  Stroke    Thyroid_Problem_Ever Thyroid_Problem_Now  COPD     Cancer_Ever
##  Yes: 32   Yes:128              Yes: 94             Yes: 39   Yes:104    
##  No :884   No :788              No :822             No :877   No :812    
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##  High_BP_Ever High_BP_Meds_Now Diabetes_Ever Diabetes_Meds_Now Moderate_Minutes
##  Yes:409      Yes:314          Yes:144       Yes:202           Min.   :   0.0  
##  No :507      No :602          No :772       No :714           1st Qu.:   0.0  
##                                                                Median : 120.0  
##                                                                Mean   : 370.8  
##                                                                3rd Qu.: 480.0  
##                                                                Max.   :4670.0  
##                                                                                
##  Vigorous_Minutes Activity_Index   Activity_Category  Comorbidities_Score
##  Min.   :   0.0   Min.   : 0.000   Length:916         Min.   : 0.000     
##  1st Qu.:   0.0   1st Qu.: 0.000   Class :character   1st Qu.: 0.000     
##  Median :   0.0   Median : 1.600   Mode  :character   Median : 1.000     
##  Mean   : 192.6   Mean   : 5.040                      Mean   : 1.824     
##  3rd Qu.: 138.8   3rd Qu.: 5.925                      3rd Qu.: 3.000     
##  Max.   :3960.0   Max.   :56.130                      Max.   :11.000     
## 

Корреляционная матрица числовых переменных

Comorbidities Score имеет умеренную положительную корреляцию с возрастом (Age) и гликированным гемоглобином (Glycohemoglobin), что указывает на влияние возраста и наличия сопутствующих заболеваний на метаболические показатели. Систолическое давление (Systolic_BP) также показывает положительную корреляцию с возрастом, что согласуется с ожидаемыми физиологическими изменениями. —

Сетевой график корреляций

Сеть корреляций демонстрирует ожидаемые связи между показателями. Activity Index положительно коррелирует с Vigorous Minutes и Moderate Minutes, что отражает вклад различных видов активности в общий индекс. Comorbidities Score имеет отрицательную корреляцию с Glycohemoglobin, что указывает на возможное влияние сопутствующих заболеваний на метаболические показатели. Показатели артериального давления (Systolic BP и Diastolic BP) и BMI имеют положительные корреляции друг с другом, что подтверждает их тесную взаимосвязь. Эти результаты подчеркивают необходимость учета данных факторов при анализе влияния физической активности на уровень HbA1c. —

Парные графики числовых переменных

Связь индекса физической активности и уровня HbA1c

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

График показывает, что большинство респондентов имеют низкий уровень физической активности (Activity Index ≤ 5), при этом у них чаще наблюдаются повышенные уровни гликированного гемоглобина (HbA1c > 6.5), что может свидетельствовать о риске метаболических нарушений. У респондентов с более высокой физической активностью наблюдается тенденция к снижению уровня HbA1c, которая снижается при слишком высоких значениях (Activity Index > 40) И совсем исчезает после 50.

Построение моделей

Модель без ковариат

## 
## Call:
## lm(formula = Glycohemoglobin ~ Activity_Index, data = cleaned_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.6073 -0.5065 -0.2073  0.1082  8.0927 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     5.8072574  0.0400656 144.944   <2e-16 ***
## Activity_Index -0.0009201  0.0041359  -0.222    0.824    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.036 on 914 degrees of freedom
## Multiple R-squared:  5.415e-05,  Adjusted R-squared:  -0.00104 
## F-statistic: 0.04949 on 1 and 914 DF,  p-value: 0.824

Модель с ковариатами

## 
## Call:
## lm(formula = Glycohemoglobin ~ Activity_Index + Sex + Race + 
##     Comorbidities_Score + Currently_Smokes, data = cleaned_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2037 -0.4301 -0.1131  0.1909  7.5655 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 5.683296   0.129300  43.954  < 2e-16 ***
## Activity_Index              0.005319   0.003876   1.372   0.1704    
## SexFemale                  -0.022088   0.065932  -0.335   0.7377    
## RaceOther Hispanic         -0.231319   0.142420  -1.624   0.1047    
## RaceNon-Hispanic White     -0.436258   0.102628  -4.251 2.35e-05 ***
## RaceNon-Hispanic Black     -0.059487   0.116753  -0.510   0.6105    
## RaceNon-Hispanic Asian     -0.027251   0.142056  -0.192   0.8479    
## RaceOther/Multi-Racial     -0.511622   0.212162  -2.411   0.0161 *  
## Comorbidities_Score         0.217168   0.015906  13.653  < 2e-16 ***
## Currently_SmokesSome days  -0.048046   0.186149  -0.258   0.7964    
## Currently_SmokesNot at all -0.032145   0.088403  -0.364   0.7162    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9297 on 905 degrees of freedom
## Multiple R-squared:  0.202,  Adjusted R-squared:  0.1932 
## F-statistic: 22.92 on 10 and 905 DF,  p-value: < 2.2e-16

## Сравнение моделей

## Analysis of Variance Table
## 
## Model 1: Glycohemoglobin ~ Activity_Index
## Model 2: Glycohemoglobin ~ Activity_Index + Sex + Race + Comorbidities_Score + 
##     Currently_Smokes
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1    914 980.18                                  
## 2    905 782.18  9       198 25.455 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Диагностика моделей

Диагностика и необходимость коррекции

Модель без ковариат:

  • Остатки имеют значительные отклонения от нормальности, что видно на Q-Q графике.
  • “Residuals vs Fitted” показывает некоторое систематическое поведение остатков, что указывает на нарушение линейности или неправильную спецификацию модели.
  • Значения R² и p-value указывают, что физическая активность в данной модели не является значимым предиктором HbA1c.
  • Модель недообъясняет вариабельность уровня HbA1c и требует доработки.

Модель с ковариатами:

  • Модель с ковариатами значительно лучше объясняет вариабельность HbA1c (R² = 0.202).
  • Остатки все еще не идеально нормальны (видно по Q-Q графику), но их распределение становится более равномерным.
  • Включение Comorbidities_Score как важного предиктора (p < 0.001) улучшило модель. Однако связь физической активности с HbA1c остается незначимой (p = 0.1704).
  • График “Residuals vs Leverage” указывает на несколько потенциальных выбросов с высокой рычаговой силой, которые могут повлиять на параметры модели.

Сравнение моделей:

  • ANOVA показывает значительное улучшение модели с включением ковариат (p < 0.001).
  • Модель с ковариатами подтверждает, что, хотя физическая активность сама по себе не является значимым предиктором, другие факторы, такие как Comorbidities_Score и раса, оказывают значительное влияние на HbA1c.

Коррекции:

  1. Исправление нормальности остатков: Рассмотреть логарифмическое или иное преобразование переменной активности.
  2. Проверка выбросов: Провести диагностику и, при необходимости, исключить или корректировать выбросы.
## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8280 -0.5129 -0.2219  0.1720  8.0834 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         5.77121    0.03411 169.179  < 2e-16 ***
## Log_Activity_Index -0.05125    0.01162  -4.411 1.15e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.013 on 906 degrees of freedom
## Multiple R-squared:  0.02102,    Adjusted R-squared:  0.01994 
## F-statistic: 19.46 on 1 and 906 DF,  p-value: 1.153e-05
## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index + Sex + Race + 
##     Comorbidities_Score + Currently_Smokes, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.0813 -0.4315 -0.1045  0.2054  7.7185 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 5.670373   0.123667  45.852  < 2e-16 ***
## Log_Activity_Index         -0.023046   0.011031  -2.089 0.036973 *  
## SexFemale                  -0.056705   0.065212  -0.870 0.384775    
## RaceOther Hispanic         -0.183735   0.141525  -1.298 0.194535    
## RaceNon-Hispanic White     -0.392330   0.102486  -3.828 0.000138 ***
## RaceNon-Hispanic Black     -0.021706   0.116172  -0.187 0.851824    
## RaceNon-Hispanic Asian     -0.006591   0.140102  -0.047 0.962486    
## RaceOther/Multi-Racial     -0.426773   0.210557  -2.027 0.042970 *  
## Comorbidities_Score         0.207208   0.015949  12.992  < 2e-16 ***
## Currently_SmokesSome days  -0.018797   0.184657  -0.102 0.918944    
## Currently_SmokesNot at all -0.012090   0.088560  -0.137 0.891439    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9189 on 897 degrees of freedom
## Multiple R-squared:  0.2022, Adjusted R-squared:  0.1933 
## F-statistic: 22.74 on 10 and 897 DF,  p-value: < 2.2e-16

Выводы после обновления модели:

  1. Модель без ковариат:
    • Логарифмирование индекса активности дало значимый отрицательный коэффициент (-0.05125, p < 0.001), что указывает на слабую отрицательную связь между физической активностью и уровнем HbA1c.
    • Однако модель объясняет только 2.1% дисперсии уровня HbA1c (Adjusted R² = 0.01994), что указывает на наличие других значимых факторов.
  2. Модель с ковариатами:
    • Добавление ковариат, таких как пол, расовая принадлежность, коморбидности и статус курения, значительно улучшило модель:
      • Adjusted R² увеличился до 19.3%, что указывает на более высокую объяснительную способность модели.
      • Коэффициент для Log_Activity_Index остался отрицательным и значимым (-0.023046, p = 0.037), подтверждая связь между физической активностью и HbA1c даже с учетом других факторов.

### Интерпретация результатов

Точечная оценка

Точечная оценка эффекта физической активности, выраженного через логарифм индекса физической активности, показывает отрицательное значение в обеих моделях (с ковариатами и без них). Это указывает на тенденцию к снижению уровня гликированного гемоглобина при увеличении физической активности. Однако величина эффекта мала, что предполагает незначительное влияние физической активности на уровень HbA1c.

Интервальная оценка

Интервальная оценка (95%-й доверительный интервал) в модели без ковариат и с ковариатами включает значения, близкие к нулю, что означает, что эффект может быть как отрицательным, так и практически отсутствующим. Тем не менее доверительный интервал не пересекает 0, а значит минимальный эффект всегда есть. Добавление ковариат в модель приводит к небольшой стабилизации эффекта, но уменьшает выраженность.

Клиническая значимость

С точки зрения клинической значимости, наблюдаемый эффект логарифма физической активности на HbA1c мал и может быть недостаточным для оказания значимого клинического влияния. Чтобы подтвердить или опровергнуть клиническую значимость, можно было бы: - Провести анализ на уровне подгрупп (например, различия между возрастными группами, по полу или наличию сопутствующих заболеваний). - Сравнить эффект физической активности с установленными клиническими интервенциями, которые приводят к значимым изменениям HbA1c. А так же установить эффект комбинации этих воздействий. - Увеличить объем данных или использовать дополнительные показатели физической активности, чтобы лучше оценить их влияние на HbA1c.

Проверка гипотезы об отсутствии ассоциации между физической активностью и гликированным гемоглобином

Для проверки гипотезы об отсутствии ассоциации (нулевая гипотеза \(H_0\): коэффициент при логарифме индекса активности равен нулю, \(\beta = 0\)) были использованы обе модели:

  1. Модель без ковариат:

    • Коэффициент: \(-0.05125\)
    • Стандартная ошибка: \(0.01162\)
    • Значение \(t\)-статистики: \(-4.411\)
    • \(p\)-значение: \(1.15 \times 10^{-5}\)

    Результат: \(p\)-значение значительно меньше 0.05, что позволяет отвергнуть нулевую гипотезу и заключить, что существует статистически значимая ассоциация между физической активностью и уровнем HbA1c.

  2. Модель с ковариатами:

    • Коэффициент: \(-0.023046\)
    • Стандартная ошибка: \(0.011031\)
    • Значение \(t\)-статистики: \(-2.089\)
    • \(p\)-значение: \(0.037\)

    Результат: \(p\)-значение также меньше 0.05, что указывает на сохранение статистически значимой ассоциации даже после корректировки на ковариаты.


Выводы

  1. Статистическая значимость:
    • В обеих моделях наблюдается статистически значимая отрицательная ассоциация между логарифмом индекса физической активности и уровнем гликированного гемоглобина.
    • Корректировка на ковариаты уменьшает значение коэффициента, но сохраняет его значимость.
  2. Интерпретация результата:
    • Увеличение физической активности связано с небольшим снижением уровня HbA1c. Однако даже после корректировки на другие факторы эффект остаётся слабым.
    • Несмотря на статистическую значимость, клиническая значимость эффекта остаётся под вопросом из-за его малой величины.
## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index * Sex, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8357 -0.5040 -0.2113  0.1627  8.1234 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   5.73813    0.04392 130.639  < 2e-16 ***
## Log_Activity_Index           -0.05355    0.01582  -3.385 0.000743 ***
## SexFemale                     0.09344    0.07207   1.297 0.195109    
## Log_Activity_Index:SexFemale  0.01281    0.02408   0.532 0.594686    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.013 on 904 degrees of freedom
## Multiple R-squared:  0.0229, Adjusted R-squared:  0.01966 
## F-statistic: 7.062 on 3 and 904 DF,  p-value: 0.0001076
## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index * Sex + Race + 
##     Comorbidities_Score + Currently_Smokes, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.0986 -0.4255 -0.1081  0.1975  7.7291 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   5.671534   0.123772  45.823  < 2e-16 ***
## Log_Activity_Index           -0.026391   0.014592  -1.809 0.070851 .  
## SexFemale                    -0.051216   0.067098  -0.763 0.445483    
## RaceOther Hispanic           -0.182323   0.141651  -1.287 0.198384    
## RaceNon-Hispanic White       -0.392778   0.102544  -3.830 0.000137 ***
## RaceNon-Hispanic Black       -0.022452   0.116248  -0.193 0.846896    
## RaceNon-Hispanic Asian       -0.008734   0.140304  -0.062 0.950380    
## RaceOther/Multi-Racial       -0.424723   0.210741  -2.015 0.044163 *  
## Comorbidities_Score           0.207174   0.015957  12.983  < 2e-16 ***
## Currently_SmokesSome days    -0.017242   0.184800  -0.093 0.925684    
## Currently_SmokesNot at all   -0.012890   0.088633  -0.145 0.884402    
## Log_Activity_Index:SexFemale  0.007690   0.021948   0.350 0.726130    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9193 on 896 degrees of freedom
## Multiple R-squared:  0.2023, Adjusted R-squared:  0.1925 
## F-statistic: 20.66 on 11 and 896 DF,  p-value: < 2.2e-16

Интерпретация результатов

  1. Первая модель (без ковариат):
    • Коэффициент для физической активности (\(\text{Log\_Activity\_Index}\)): -0.05355, \(p < 0.001\), что указывает на статистически значимую отрицательную ассоциацию между физической активностью и уровнем HbA1c.
    • Взаимодействие между физической активностью и полом (\(\text{Log\_Activity\_Index:SexFemale}\)): Коэффициент 0.01281, \(p = 0.595\), не является статистически значимым. Это предполагает, что эффекты физической активности на HbA1c не различаются между мужчинами и женщинами.
  2. Вторая модель (с ковариатами):
    • Коэффициент для физической активности (\(\text{Log\_Activity\_Index}\)): -0.02639, \(p = 0.071\), потерял статистическую значимость после добавления ковариат.
    • Взаимодействие между физической активностью и полом (\(\text{Log\_Activity\_Index:SexFemale}\)): Коэффициент 0.00769, \(p = 0.726\), остается незначимым. Это подтверждает, что пол не является модификатором эффекта физической активности на HbA1c.
    • Значимые ковариаты:
      • Раса (Race): Некоторый эффект наблюдается для групп “Non-Hispanic White” (\(p < 0.001\)) и “Other/Multi-Racial” (\(p = 0.044\)).
      • Суммарный индекс коморбидностей (Comorbidities_Score): Коэффициент 0.207, \(p < 0.001\), показывает сильную положительную ассоциацию с HbA1c.

Выводы

  1. Эффект физической активности:
    • Без учета ковариат физическая активность показывает значительное снижение уровня HbA1c.
    • После учета ковариат ассоциация становится слабее и теряет статистическую значимость.
  2. Пол как модификатор:
    • В обеих моделях взаимодействие между полом и физической активностью незначимо (\(p > 0.05\)). Это говорит о том, что влияние физической активности на HbA1c не различается между мужчинами и женщинами.

Эффект физической активности был статистически значимым (\(p = 0.037\)) после корректировки на ковариаты в модели без разделения по полу, но потерял значимость (\(p = 0.071\)) после включения взаимодействия с полом.

Возможные причины:

  1. Увеличение стандартной ошибки коэффициента
    • Без взаимодействия стандартная ошибка для \(Log\_Activity\_Index\) была \(0.011031\), а \(t\)-статистика составляла \(-2.089\).
    • С взаимодействием стандартная ошибка возросла до \(0.014592\), и \(t\)-статистика снизилась до \(-1.809\).
    • Это связано с тем, что часть вариации, ранее объясняемой активностью, теперь учитывается за счет взаимодействия с полом.
  2. Снижение статистической мощности
    • Разделение эффекта на две группы (мужчины и женщины) уменьшает доступную информацию для оценки общего эффекта активности, особенно если в выборке есть дисбаланс между мужчинами и женщинами.

Вывод

Эффект физической активности был значимым в модели без взаимодействия с полом, так как оценивался как общий для всех респондентов. Добавление взаимодействия с полом увеличило сложность модели, увеличив стандартные ошибки и снизив статистическую мощность. Это привело к потере значимости, хотя основной эффект активности остается близким к значимому (\(p = 0.071\)).

Direct эффект

Для оценки прямого (direct) эффекта физической активности на гликированный гемоглобин (HbA1c) необходимо скорректировать модель на посредника (mediator), такого как индекс массы тела (BMI). Это позволит отделить эффект, который физическая активность оказывает на HbA1c через снижение массы тела, от эффекта, который она оказывает напрямую.

## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index + Sex + Race + 
##     Comorbidities_Score + Currently_Smokes, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.0813 -0.4315 -0.1045  0.2054  7.7185 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 5.670373   0.123667  45.852  < 2e-16 ***
## Log_Activity_Index         -0.023046   0.011031  -2.089 0.036973 *  
## SexFemale                  -0.056705   0.065212  -0.870 0.384775    
## RaceOther Hispanic         -0.183735   0.141525  -1.298 0.194535    
## RaceNon-Hispanic White     -0.392330   0.102486  -3.828 0.000138 ***
## RaceNon-Hispanic Black     -0.021706   0.116172  -0.187 0.851824    
## RaceNon-Hispanic Asian     -0.006591   0.140102  -0.047 0.962486    
## RaceOther/Multi-Racial     -0.426773   0.210557  -2.027 0.042970 *  
## Comorbidities_Score         0.207208   0.015949  12.992  < 2e-16 ***
## Currently_SmokesSome days  -0.018797   0.184657  -0.102 0.918944    
## Currently_SmokesNot at all -0.012090   0.088560  -0.137 0.891439    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9189 on 897 degrees of freedom
## Multiple R-squared:  0.2022, Adjusted R-squared:  0.1933 
## F-statistic: 22.74 on 10 and 897 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Glycohemoglobin ~ Log_Activity_Index + BMI + Sex + 
##     Race + Comorbidities_Score + Currently_Smokes, data = cleaned_data_no_outliers)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3141 -0.4050 -0.1025  0.2025  7.7816 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 5.16626    0.18071  28.589  < 2e-16 ***
## Log_Activity_Index         -0.01912    0.01100  -1.738 0.082501 .  
## BMI                         0.01813    0.00477   3.801 0.000154 ***
## SexFemale                  -0.06320    0.06475  -0.976 0.329344    
## RaceOther Hispanic         -0.15899    0.14063  -1.131 0.258523    
## RaceNon-Hispanic White     -0.36417    0.10200  -3.570 0.000375 ***
## RaceNon-Hispanic Black     -0.02666    0.11532  -0.231 0.817239    
## RaceNon-Hispanic Asian      0.08447    0.14111   0.599 0.549601    
## RaceOther/Multi-Racial     -0.42832    0.20900  -2.049 0.040711 *  
## Comorbidities_Score         0.19621    0.01609  12.192  < 2e-16 ***
## Currently_SmokesSome days  -0.03054    0.18331  -0.167 0.867725    
## Currently_SmokesNot at all -0.04374    0.08830  -0.495 0.620433    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9121 on 896 degrees of freedom
## Multiple R-squared:  0.2149, Adjusted R-squared:  0.2052 
## F-statistic: 22.29 on 11 and 896 DF,  p-value: < 2.2e-16
## Общий эффект: -0.02304613
## Прямой эффект: -0.01911793

Диагностика моделей

Интерпретация

Общий эффект физической активности на HbA1c составляет -0.0230, а прямой эффект (исключая влияние через BMI) — -0.0191. Разница обусловлена тем, что часть влияния активности проходит через снижение массы тела. Общий эффект сильнее, так как включает опосредованное воздействие. Прямой эффект остается отрицательным, подтверждая благоприятное воздействие активности, но слабее из-за исключения медиаторов.